Historische Reiseberichte öffnen: Textauszeichnung, Datenmodellierung und Visualisierung

Historische Reiseberichte öffnen: Textauszeichnung, Datenmodellierung und Visualisierung

Organisatoren
Anna Ananieva / Sandra Balck, Leibniz-Institut für Ost- und Südosteuropaforschung (IOS Regensburg)
Ort
Regensburg
Land
Deutschland
Fand statt
Hybrid
Vom - Bis
20.07.2023 - 21.07.2023
Von
Corwin Schnell, Eberhard Karls Universität Tübingen; Jacob Möhrke, Leibniz-Institut für Ost- und Südosteuropaforschung (IOS Regensburg)

Historische Reiseberichte repräsentieren eine äußerst faszinierende Quelle für die wissenschaftliche Untersuchung. Digitale Editionen bieten eine hervorragende Möglichkeit, über die herkömmlichen papierbasierten Simulationen hinauszugehen und diese Ressource für Forschende zugänglicher zu machen. Doch die Erstellung digitaler Editionen birgt eigene Herausforderungen. Einige dieser Herausforderungen adressierte der von Anna Ananieva und Sandra Balck organisierte Workshop „Historische Reiseberichte öffnen: Textauszeichnung, Datenmodellierung und Visualisierung”. Im Rahmen des von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts „Digitale Editionen historischer Reiseberichte” (DEHisRe) versammelten sich Teilnehmer:innen aus Deutschland und Österreich, um die Möglichkeiten und Herausforderungen der digitalen Modellierung zu erörtern. Dabei standen die Erfahrungen im Umgang mit TEI-XML, der Textdigitalisierung mittels HTR / OCR und der Visualisierung von Ortsdaten im Fokus. Zudem wurde das Dilemma zwischen ressourcensparender, jedoch potenziell fehleranfälliger Automatisierung und zeitaufwändiger manueller Arbeit intensiv diskutiert.

ANNA ANANIEVA (Regensburg) stellte in ihrem einführenden Vortrag das laufende Regensburger Forschungsprojekt und die Mitglieder des interdisziplinär zusammengesetzten Projektteams „DEHisRe“ vor, das von Guido Hausmann an dem Leibniz-Institut für Ost- und Südosteuropaforschung (IOS) geleitet wird. Indem sie auf die Ausgangsfragen des Forschungsvorhabens einging, fokussierte sie erstens, die technischen Möglichkeiten, die den Forschenden zurzeit für die Erstellung von digitalen Editionen historischer Reiseberichte zur Verfügung stehen. Zweitens ging sie auf die Frage ein, wie diese effektiv eingesetzt werden, damit die digital editierten handschriftlichen Texte zur Formulierung und zur Beantwortung komplexer Forschungsfragen genutzt werden können. Anschließend erläuterte sie die Vorgehensweise des Regensburgers Projekts sowie die Besonderheiten der Fallstudie, die den Kern der digitalen Edition bildet: die unveröffentlichten Reiseberichte Franz Xaver Bronners (1758 – 1850) aus dem Nachlass dieses Schriftstellers und Physikprofessors, die heute im Staatsarchiv Aargau aufbewahrt werden. Es handelts ich um mehrere Reisejournale mit ausführlichen Aufzeichnungen des aus Bayern stammenden deutschen Wahlschweizers, die im Zusammenhang mit seinen Reisen von Aarau nach Kazan‘ an der Wolga und zurück in den Jahren 1810 und 1817 entstanden sind.

MAREIKE SCHUMACHER (Regensburg) eröffnete den ersten thematischen Block des Workshops und präsentierte ihre Untersuchungen zur literaturwissenschaftlichen Analyse des Raumbegriffs. Sie beleuchtete den kulturhistorischen Wandel in der Auffassung von Raum von Aristoteles bis Bourdieu. Anschließend grenzte sie das Raumkonzept als mehrdimensionales Gebilde vom Konzept des konkreten Orts ab und unterteilte es in sechs Unterkategorien. Mithilfe dieser Kategorien kann Raum im Kontext von Romanen ausreichend formalisiert werden, um eine computergestützte Analyse zu ermöglichen. Mittels eines eigens entwickelten Klassifikator ist sie in der Lage händische Annotationen auf ungesehene Texte zu übertragen und so Vergleiche von Raumdarstellungen über verschiedene Genres und Epochen hinweg durchzuführen. Ihr Vortrag bot eine theoretische Grundlage für die in Reiseberichten zentralen Begriffe Ort und Raum. Ein entscheidender Unterschied zwischen literaturwissenschaftlichen Untersuchungen und digitalen Editionen trat in der Diskussion am Beispiel des F-Scores zutage, so sind die digitalen Literaturwissenschaften aufgrund statistischer Effekte und ihrer großen Datenmengen deutlich robuster gegenüber Fehlern in automatisierten Aufgaben, als dies bei digitalen Editionen der Fall ist.

CHRISTOPHER POLLIN (Graz) widmete sich in seinem Vortrag einem weiteren wichtigen Bereich historischer Reiseberichte in Form von ökonomischen Aufzeichnungen und Quellen. Hierfür führte er in die Ontologie „Digital Edition Publishing Cooperative for Historical Accounts” (DEPCHA) ein, die er zur Erfassung historischer Rechnungszettel entwickelte. Im zweiten Teil seines Vortrags beleuchtete er die Anwendungsmöglichkeiten von GPT-4 und ähnlichen Large Language Models. Mithilfe einer kurzen Reisegeschichte demonstrierte er, wie GPT-4 mithilfe eines Code-Plug-Ins valide TEI-XML generieren kann. In der anschließenden Diskussion wurde insbesondere die Frage nach existierenden Ontologien für Reiseberichte erörtert. Dabei ergab sich, dass es bereits einige Ansätze gibt, jedoch aufgrund der Vielfalt des Materials noch keine einheitliche Standardontologie etabliert ist.

MARTINA BÜRGERMEISTER (Graz/Wien) und KATHARINA PEKTOR (Wien) berichteten über die Projekte „Becoming Urban” und „Peter Handke Notizbücher”. Beide Projekte setzen auf räumliche Visualisierungen, verfolgen jedoch unterschiedliche Zwecke mit diesen Visualisierungen. In ihrem Vortrag gingen sie insbesondere auf die Herausforderungen bei der Auszeichnung von Orten ein. Diese reichen von praktischen Schwierigkeiten wie Nichtauffindbarkeit und Nichtkartografierbarkeit bis hin zu theoretischen Überlegungen, wie sie beispielsweise in Bezug auf fiktive Orte auftreten. Diese Problemstellungen werfen gleichzeitig Fragen nach der Vollständigkeit der Annotationen auf, was im Hinblick auf die Wiederverwendbarkeit und Nachnutzung von besonderer Bedeutung ist. Das Projekt „Peter Handke Notizbücher” an der ÖNB Wien begegnet diesem Problem durch die Auslagerung detaillierter Annotationen in ein separates Register. Dennoch bleiben einige Herausforderungen ungelöst, insbesondere die Visualisierung fiktiver oder nicht auffindbarer Orte ist derzeit nicht realisierbar.

Die Frage der Datenwiederverwendbarkeit griff GORDON FISCHER (Berlin) in seinem Vortrag über chronologisch-geographische Visualisierungen von Alexander von Humboldts Reiserouten auf. Dabei betonte er die Herausforderungen, die durch die rasche Entwicklung digitaler Techniken und Tools entstehen. Aufgrund dieser stetigen Weiterentwicklung gestaltet sich langfristige Planung oft schwierig. Daraus folgt die Bedeutung präziser und umfassender Annotationen sowie etablierter Standards wie beispielsweise GeoJSON für Ortsdaten. Mit einem von Fischer entwickelten Tool verfolgt er das Ziel, Reiserouten sowohl zeitlich als auch räumlich darzustellen. Eine solche Visualisierung ermöglicht verschiedene Zugänge zu Reiseberichten, beispielsweise die Identifizierung tradierter Reiserouten (auffällige Überschneidungen zwischen Straßen der Hanse und Reiserouten Humboldts) oder potenzielle Begegnungen verschiedener Reisender. Eine solche Darstellung erfordert ausführliche, (bis zu einem gewissen Grad) einheitliche Annotationen und eine Zusammenführung an einer zentralen Stelle. Wie seine Vorrednerinnen, weist auch Gordon Fischer auf einige Schwierigkeiten bei der Erfassung von Ortsdaten hin, welche er am Beispiel der Reisen Humboldts und Ehrenbergs darstellt, die aktuell an der BBAW bearbeitet werden. So stellt sich die Frage nach dem Umgang mit Orten, die nicht länger existieren, mit Verzerrungen durch die Kartographierung, mit Veränderungen der Landschaft und nach abweichenden respektive fehlerhaften Schreibweisen. Aber auch die Frage nach der Richtigkeit der Angaben durch den Verfasser des Reiseberichts. Eine Verquickung von Zeit und Raum kann solche Erwägungen plausibilisieren, da sich Reisegeschwindigkeit und mögliche Routen ableiten lassen.

MARTIN DE LA IGLESIA (Wolfenbüttel) berichtete über das Projekt „Hainhofer Reiseberichte” der Herzog August Bibliothek (HAB). Das Projekt verwendet ein umfangreiches Ortsregister. Für die Visualisierung wird der „Dariah GeoBrowser” verwendet, in welchem sowohl gewichtete als auch chronologische Darstellungen von Orten möglich sind. Der Workflow umfasst die Auszeichnung in TEI-XML, welche mithilfe von XSLT in KML umgewandelt und als KML-Datei im Dariah GeoBrowser integriert wird. Zur Modellierung dieser (Reise-)Ereignisse wird Linked Data im RDF-Format verwendet. Am Beispiel der „Hainhofer Reiseberichte” zeigte er, wie aus dem Zusammenwirken von Registern, Karten und Linked Open Data eine Digitale Edition entsteht. Martin de la Iglesia plädierte für eine Reduzierung der Komplexität von Auszeichnungen, um die digitale Edition übersichtlich und performant zu gestalten. Hier öffnet sich eine Spannung zu der aus Sicht der Nachnutzung wünschenswerten vollständigen Auszeichnung und einer aus Sicht der Edition notwendigen pragmatischen und unvollständigen Auszeichnung.

Den zweiten Workshoptag leitete RAINER SIMON (Wien), der über Zoom zugeschaltet war, mit seinem Vortrag über die Entwicklungen der Recogito Annotationsplattform ein. Neben der Vorstellung von Recogito legte er den Fokus auf die Möglichkeiten, die den 12.000 Nutzern durch die Plattform geboten werden. Durch zahlreiche Funktionen, wie beispielsweise Möglichkeiten zur Kommentierung, Tag-Setzung, der Einbindung von Bilddateien und dem Export in verschiedene Formate, wird einzelnen Forschenden oder Teams so ein Baukasten für die Bearbeitung im Bereich der „Semantic Geo-Annotation“ geboten. Obwohl die Entwicklung an der Kern-Plattform bereits 2019 abgeschlossen wurde, betonte Rainer Simon „Spin-Off Aktivitäten“, wie die Verwendung von adaptierten Versionen von Recogito, die den projektspezifischen Bedürfnissen zugeschnitten wurden. In zwei Fallstudien an „Annotorious“ und „Machines Reading Maps“ deutete er konkrete Umsetzungsmöglichkeiten an, die besonders durch die Vielzahl an Anwendungsmöglichkeiten bestechen.

SANDRA BALCK und JACOB MÖHRKE (Regensburg) stellten das Projekt des Gastgeber-Teams aus Regensburg vor und konzentrierten sich zunächst auf die Handschriftenerkennung mit Transkribus. Dabei setzten sie den Fokus auf die Auswahl und Verbesserungsmöglichkeiten des Trainingsmodells, um eine möglichst fehlerfreie Transkription der Reinschrift zu ermöglichen. Im nächsten Vortragsteil konzentrierten sich Sandra Balck und Jacob Möhrke auf den praktischen Einsatz der „Named Entity Recognition“ (NER), die laut den Vortragenden einen wichtigen Schritt der Vorverarbeitung für nachfolgende Aufgaben wie die Semantische Analyse, Text Mining und Distant Reading ausmacht. Die konkrete Verwendung der NER in der Praxis zeigten sie anhand des Open-Source-Programms HeidelTime. Durch die Implementierung von Paketen und anderer Software konnten anfängliche Probleme, wie die Konservierung der bestehenden XML-Tags und die Erkennung von julianischen und gregorianischen Daten in der verwendeten XML-Datei, gelöst werden.

ANGELA GÖBEL (Wolfenbüttel) widmete sich in ihrem Vortrag der Digitalisierung, Erschließung und Visualisierung von Bildungsreisen im Projekt „Grand Tour digital“ an der HAB. Der Fokus lag dabei auf den Möglichkeiten und Grenzen, die sich bei der Anwendung von teilautomatisierten Editionsverfahren ergeben. Besondere Herausforderungen ergaben sich demnach bei der Handschriftenerkennung mit Transkribus. Unterschiedlicher Seitenaufbau, verschiedene Schriftgrößen und Sprachen sowie die allgemeine Lesbarkeit der Schrift variierten zwischen den einzelnen erfassten Seiten und erschwerten die automatisierte Annotation. Durch diese Schwierigkeiten war eine umfassende Vor- und Nachbereitung der Schriften notwendig. Angela Göbel betonte, dass die erfolgreiche Transkription trotz der händischen Vorarbeit und der Anpassung des Basismodells stark vom Ausgangsmaterial abhängig ist, ein Faktor, der die (Teil-)Automatisierung erheblich beeinflussen kann.

Zum Abschluss des letzten thematischen Blocks befasste sich MAXIMILIAN GÖRMAR (Wolfenbüttel) mit der Durchführung einer NER. Nach einer Einführung in den allgemeinen Anwendungsbereich und maßgebliche NER-Tools, beschrieb er den Umgang mit Trainingssets, der sich in die Punkte Aufbereitung, Training, Evaluierung und Anwendung teilen lässt. Als offene Probleme benannte Maximilian Görmar die relativ niedrige Erkennungsrate zwischen 60 und 70 (F-Score), deren Ursachen er in der fehlenden sprachlichen Normierung der Frühen Neuzeit, der Mehrsprachigkeit von Texten sowie der überschaubaren Größe des Trainingssets sieht. Weitere Schwierigkeiten waren die Identifikation und Disambiguierung der Entitäten und die Verknüpfungsmöglichkeiten mit Normdaten. Perspektivisch scheint eine Vergrößerung der Datenbasis nur bedingt erfolgsversprechend. Dies resultiert aus der Uneinheitlichkeit der Auszeichnung von Entitäten und divergierender Formen der Normalisierung in potentiellen Datenquellen.

Während der beiden Workshoptage wurde ersichtlich, dass es zahlreiche Ansätze zur digitalen Aufarbeitung historischer Reiseberichte gibt. Diese reichen von (teil-)automatisierter Erfassung der Handschriften, über die Modellierung der erfassten Daten bis hin zur Visualisierung von Reiserouten. Wobei für jeden dieser Schritte eine Vielzahl von Herangehensweisen und technischer Lösungsansätze existiert. Jeder dieser Ansätze bietet eigene Chancen und stellt zugleich spezifische Herausforderungen dar. Die lebhaften Diskussionen betonten die Bedeutung einer engen Zusammenarbeit zwischen verschiedenen Forschungsgruppen, um Projekthürden erfolgreich zu bewältigen. Zudem wurde klar, dass das Thema der historischen Reiseberichte im deutschsprachigen Raum großes Interesse genießt, was die Planung einer weiteren Veranstaltung rechtfertigt, die am 1.-2. Februar 2024 in Regensburg stattfinden wird.

Konferenzübersicht:

Anna Ananieva (Regensburg) / Sandra Balck (Regensburg): Begrüßung der Tagungsteilnehmer:innen

Anna Ananieva (Regensburg): Einführung und Projektvorstellung DEHisRe

Erste Sektion

Moderation: Sandra Balck (Regensburg)

Mareike K. Schumacher (Regensburg): Raum modellieren: Konzeptualisierung und Operationalisierung narrativer Raumdarstellung

Christopher Pollin (Graz): “Wie hältst du’s mit der historischen Information in digitalen Editionen?” Workflows, Semantic Web und TEI in GAMS

Zweite Sektion

Moderation: Hermann Beyer-Thoma (München)

Katharina Pektor (Wien) / Martina Bürgermeister (Graz / Wien): Schauplätze: Erfahrungen mit der Kartierung von Orten aus zwei Projekten

Gordon Fischer (Berlin): Historische Quellen der Russland-Reise A. v. Humboldts mit den digitalen Möglichkeiten räumlich-zeitlicher Visualisierung

Martin de la Iglesia (Wolfenbüttel): Besondere Herausforderungen des digitalen Edierens von Reiseberichten am Beispiel der Reiserelationen Philipp Hainhofers

Dritte Sektion

Moderation: Anna Ananieva (Regensburg)

Rainer Simon (Wien): Die Recogito Annotationsplattform: Aktuelle & zukünftige Entwicklungen

Sandra Balck / Jacob Möhrke (Regensburg): Annotations-Workflows gestalten: Die Vielschichtigkeit historischer Reisberichts-Editionen am Beispiel Franz Xaver Bronner

Vierte Sektion

Moderation: Corwin Schnell (Regensburg)

Angela Göbel (Wolfenbüttel): Möglichkeiten und Grenzen teilautomatisierter Editionsverfahren am Beispiel des Projekts „Grand Tour digital“ und der Handschriftenerkennungssoftware Transkribus

Maximilian Görmar (Wolfenbüttel): Zur Anwendung der Named Entity Recognition in frühneuzeitlichen Reiseberichten – Perspektiven und Herausforderungen der Nachnutzung digitaler Editionen in Form von Trainingsdaten und Wissensbasis